首页> 外文OA文献 >Logical Markov decision programs and the convergence of logical TD(lambda)
【2h】

Logical Markov decision programs and the convergence of logical TD(lambda)

机译:逻辑马尔可夫决策程序和逻辑TD(lambda)的收敛

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Recent developments in the area of relational reinforcement learning (RRL) have resulted in a number of new algorithms. A theory, however, that explains why RRL works, seems to be lacking. In this paper, we provide some initial results on a theory of RRL. To realize this, we introduce a novel representation formalism, called logical Markov decision programs (LOMDPs), that integrates Markov Decision Processes (MDPs) with Logic Programs. Using LOMDPs one can compactly and declaratively represent complex MDPs. Within this framework we then devise a relational upgrade of TD(lambda) called logical TD(lambda) and prove convergence. Experiments validate our approach.
机译:关系强化学习(RRL)领域的最新发展产生了许多新算法。但是,似乎缺少一种理论来解释RRL为何起作用。在本文中,我们提供了有关RRL理论的一些初步结果。为了实现这一点,我们引入了一种新颖的表示形式主义,称为逻辑马尔可夫决策程序(LOMDP),它将马尔可夫决策过程(MDP)与逻辑程序集成在一起。使用LOMDP可以紧凑和声明性地表示复杂的MDP。然后,在此框架内,我们设计了称为逻辑TD(lambda)的TD(lambda)的关系升级,并证明了收敛性。实验验证了我们的方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号